口语医学对话系统越来越引起人们的兴趣,以增强获得医疗服务的机会并提高患者护理的质量和可追溯性。在本文中,我们专注于通过口语对话在智能手机上获得的医疗药物处方。这样的系统将促进护理的可追溯性,并可以释放临床医生的时间。但是,由于大多数相关语料库都是文本形式和英语,因此缺乏语音语料库来开发此类系统。为了促进口头医学对话系统的研究和开发,据我们所知,我们介绍了第一个名为PXSLU的口语医学药物处方语料库。它包含通过与55名参与者专家的实验获得的法国药物处方的4小时和注释对话,并在处方中进行了非专家。我们还提出了一些实验,这些实验证明了该语料库对医学对话系统的评估和开发的兴趣。
translated by 谷歌翻译
GAN vocoders are currently one of the state-of-the-art methods for building high-quality neural waveform generative models. However, most of their architectures require dozens of billion floating-point operations per second (GFLOPS) to generate speech waveforms in samplewise manner. This makes GAN vocoders still challenging to run on normal CPUs without accelerators or parallel computers. In this work, we propose a new architecture for GAN vocoders that mainly depends on recurrent and fully-connected networks to directly generate the time domain signal in framewise manner. This results in considerable reduction of the computational cost and enables very fast generation on both GPUs and low-complexity CPUs. Experimental results show that our Framewise WaveGAN vocoder achieves significantly higher quality than auto-regressive maximum-likelihood vocoders such as LPCNet at a very low complexity of 1.2 GFLOPS. This makes GAN vocoders more practical on edge and low-power devices.
translated by 谷歌翻译
流体(VOF)方法的体积被广泛用于多相流仿真中,以跟踪和定位两个不混溶的流体之间的界面。VOF方法的主要瓶颈是界面重建步骤,由于其高计算成本和非结构化网格的精度较低。我们建议基于图神经网络(GNN)的机器学习增强的VOF方法,以加速通用非结构化网格上的接口重建。我们首先开发一种方法来基于在非结构化网格上离散的抛物面表面生成合成数据集。然后,我们训练基于GNN的模型并执行概括测试。我们的结果表明,在工业背景下,基于GNN的界面重建方法的效率。
translated by 谷歌翻译
我们提出了一条多阶段管道,用于简单的手势识别。我们方法的新颖性是不同技术的关联,截至目前,第一个实时系统可以共同提取骨骼并在胡椒机器人上识别手势。为此,Pepper用嵌入式GPU进行了增强,用于运行Deep CNN和鱼眼相机,以捕捉整个场景的互动。我们在本文中表明,实际场景具有挑战性,而最先进的方法几乎不涉及未知的人类手势。我们在这里提出一种处理此类案件的方法。
translated by 谷歌翻译
对比损失长期以来一直是深度度量学习的关键成分,现在由于自我监督学习的成功而正在变得越来越受欢迎。最近的研究表明,在学习代表网络时以互补的方式分解这种损失的损失:正期和熵项。虽然因此整体损失被定义为两种术语的组合,但这两个术语的余额通常隐藏在实施细节之后,并且在实践中很大程度上被忽略和次优。在这项工作中,我们将对比损失的平衡作为超参数优化问题,并提出了一种基于坐标的下降的搜索方法,可有效地找到优化评估性能的超参数。在此过程中,我们将现有的余额分析扩展到对比度边缘损失,包括批次大小在余额中,并解释如何从批处理中汇总损耗元素,以在更大范围内保持近最佳性能。来自深度度量学习和自我监督学习的基准的广泛实验表明,使用我们的方法比其他常用搜索方法更快地找到最佳超参数。
translated by 谷歌翻译
它是雅虎邮件的重要产品要求,以区分个人和机器生成的电子邮件。雅虎邮件的旧生产分类器基于一个简单的逻辑回归模型。该模型通过在SMTP地址级别的聚合功能进行培训。我们建议在消息级别建立深入学习模型。我们构建并训练了四个单独的CNN模型:(1)具有主题和内容的内容模型作为输入; (2)发件人模型,发件人电子邮件地址和名称为输入; (3)通过分析电子邮件收件人的动作模式和相应地基于发件人的开/删除行为的目标标签进行操作模型; (4)通过利用发件人的“显式称呼”信号作为正标签来称呼模型。接下来,在探索上述四种模型的不同组合后,我们建立了最终的完整模型。与旧生产模型相比,我们的全部模型从70.5%提高到78.8%的调整后召回,同时抬起94.7%至96.0%的精度。我们的完整模式也显着击败了这项任务的最先进的BERT模型。此全模型已部署到当前的生产系统(雅虎邮寄6)中。
translated by 谷歌翻译
人类毫不费力地解决了在日常生活中推动任务,但解锁这些能力在机器人中仍然是一个挑战,因为这些任务的物理模型通常不准确或无法实现。最先进的数据驱动方法学会弥补这些不准确性或更换近似物理模型。尽管如此,深度Q-Networks(DQN)等方法遭受了大状态行动空间中的本地Optima。此外,他们依靠精心挑选的深度学习架构和学习范式。在本文中,我们建议框架将DQN推向策略(其中推送和如何)作为图像到图像到图像转换问题,并利用基于沙漏的架构。我们介绍了一种架构,该架构组合的预测器,其推动导致环境的变化具有专用于推动任务的状态 - 动作值预测器。此外,我们调查了职位信息编码以学习依赖于依赖的策略行为。我们在仿真实验中展示了UR5机器人手臂,即我们的整体架构帮助DQN在推动任务中达到更快,实现更高的性能,涉及具有未知动态的对象。
translated by 谷歌翻译